IT之家 03-31 07:01

阿里千问发布全模态大模型 Qwen3.5-Omni，无缝理解文本、图片、音频及音视频输入

📌 一句话：阿里千问发布Qwen3.5-Omni，实现文本、图像、音频、视频的统一理解，AI感知能力再升级。

多模态AI是当前大模型竞争的核心战场。此前GPT-4V、Gemini等已展示图像理解能力，音频、视频处理成为新的突破点。阿里此前已发布Qwen系列开源模型，此次全模态版本补齐了能力版图。

四模态统一不是炫技，而是AI从"能说会道"走向"耳聪目明"的关键一步。当AI能同时理解你说的话、看的画面、听的音频，它才能真正成为生活的助手。阿里这次押注的不仅是技术，更是下一代人机交互的入口。

📖 原文链接